Proyectos MCDI 2025-1

Eric S. Téllez

INFOTEC sede Aguascalientes, Ags.

Búsqueda por similitud

Problemas

  • Indexamiento y búsqueda para \(k\) vecinos cercanos.
  • Determinación de los pares más cercanos y los \(k\) centros más alejados.
  • Construcción de grafos de \(k\) vecinos.

Indexamiento

Dado un espacio métrico \((U, d)\), la idea es preprocesar un \(X \subset U\) para resolver consultas \((q, r)\) de manera eficiente.

  • \(d(u, v)\) es una métrica definida sobre cualquier par \((u, v) \in U \times U\).
  • La base de datos es finita \(X=x_1, x_2, \cdots, x_n\).
  • \(q \in U\) y comúnmente \(q \not\in X\).
    • \((q, r)\) se le llama búsqueda por rango, pero si \(r\) es conocido para un número de elementos deseados se puede transformar en una búsqueda de \(k\) vecinos cercanos (knn).

El preprocesamiento tiene como objetivo obtener relaciones en el espacio métrico para permitir resolver consultas de manera eficiente.

La búsqueda por similitud es un problema fundamental en ciencias de la computación, pero es importante remarcar que las aplicaciones con los nuevos modelos de aprendizaje profundo se estan consolidando aún más.

Aplicaciones

  • Recuperación densa (dense retrieval): Búsqueda de documentos a partir de consultas que no necesariamente se parecen léxicamente pero si semánticamente.
  • Búsqueda multimodal: Búsqueda de video o imágenes por medio de texto usando descripciones del contenido.
  • Generación aumentada por recuperación: Conocida como Retrieval Augmented Generation o (RAG), la idea es reducir alucionaciones de LLM generativos a partir de recuperación factual; también funciona para que los LLM tengan conocimiento fuera de su entrenamiento.
  • Acelerador de algoritmos de agrupamiento y visualización.

Proyecciones a baja dimensión

UMAP de primos

UMAP noticias twitterClusters limpios

Ejemplo Clustering/tópicos – Unidad 6 Recuperación de Información

Problemas

  • Sketches binarios sobre la distancia de Hamming.
  • Cuantización basada en:
    • grafo \(k\)nn.
    • grafo HSP.

Búsqueda sin indexamiento

Entre las aplicaciones posibles, no siempre se necesita un índice (preprocesamiento)

  • Archivado de datos.
  • Análisis de datos históricos.
  • Bases de datos que raramente son actualizadas.
  • Agrupamiento.
  • Visualización.

Procesamiento de lenguaje natural

Recursos regionalizados para el Español

Español

Similitud léxica entre regiones

México

Similitud semática entre regiones de México

Problemas de clasificación

Entender el lenguaje y los mensajes escritos en redes sociales.

  • Minería de opinión (análisis de sentimiento): determinar sí algo es positivo :),   neutro :), o   negativo :(

  • Análisis de tópicos: ¿Qué temas hay en un corpus?

  • Carga emotiva de un mensaje: enojo, anticipación, disgusto, miedo, gozo, tristeza, sorpresa, confianza.

  • Identificación de humor, odio, o esperanza, …y un largo etcétera.

Perfilado

  • Predicción indicadores socio-demográficos de los usuarios.
  • Identificación de autoría.
  • Entender como se comportan usuarios.
  • Medición de violencia en redes sociales.
  • Identificación de posibles trastornos mentales.

Clustering y tópicos

  • Clustering de documentos utilizando sentence BERT o BoW.
  • Identificación de tópicos, e.g., LDA, BERT Topic.

Búsqueda

  • Búsqueda de texto completo con modelo léxico:
    • TFIDF
    • BM25
  • Búsqueda densa:
    • Sentence BERT
    • ColBERT